Optimisation des approximations de probabilité des requêtes en XML probabiliste

نویسندگان

Asma Souihli

Pierre Senellart

چکیده

XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l’intégration incertaine de données, l’extraction d’informations ou le contrôle probabiliste de versions. Nous explorons dans ce travail une solution efficace pour l’évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour l’approximation de la probabilité d’une requête booléenne sur un document probabiliste. L’approche repose sur, d’une part, la production de la provenance probabiliste de la requête posée, et, d’autre part, la recherche d’une stratégie optimale pour estimer la probabilité de cette provenance. Cette deuxième partie s’inspire des approches des optimiseurs de requêtes : l’exploration de différents plans d’évaluation pour différentes parties de la formule et l’estimation du coût de chaque plan, suivant un modèle de coût établi pour les algorithmes de calcul utilisés. Nous démontrons l’efficacité de cette approche sur des jeux de données utilisés dans des travaux précédents sur l’interrogation des bases de données XML probabilistes, ainsi que sur des données synthétiques.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Contrôle de version incertaine dans l ’ édition collaborative ouverte de documents arborescents

En vue de faciliter l’enrichissement, l’échange et le partage de contenu, les plates-formes collaboratives Web telles que Wikipedia ou Google Docs permettent des interactions à large échelle entre un grand nombre de contributeurs. Cette collaboration ne requiert pas une connaissance préalable du niveau d’expertise et de fiabilité des participants. La gestion de version est donc essentielle pour...

متن کامل

Optimal Probabilistic Generators for XML Corpora

We study the problem of, given a corpus of XML documents and its schema, finding an optimal probabilistic model (optimality meaning maximizing the likelihood of the corpus to be generated). We present an efficient algorithm for finding the best probabilistic model, in absence of constraints. We further study the problem in presence of integrity constraints (key, inclusion, and domain constraint...

متن کامل

Nettoyage des données XML : combien ça coûte ?

Résumé. L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d’un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préa...

متن کامل

Intégration de la structure dans un modèle probabiliste de documents

Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont ...

متن کامل

Modèle probabiliste pour l'extraction de structures dans les documents web

RÉSUMÉ. Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applica...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2012

Optimisation des approximations de probabilité des requêtes en XML probabiliste

نویسندگان

چکیده

منابع مشابه

Contrôle de version incertaine dans l ’ édition collaborative ouverte de documents arborescents

Optimal Probabilistic Generators for XML Corpora

Nettoyage des données XML : combien ça coûte ?

Intégration de la structure dans un modèle probabiliste de documents

Modèle probabiliste pour l'extraction de structures dans les documents web

عنوان ژورنال:

اشتراک گذاری